Backlinks: Stadt, Land, Fluss, Die vier Wortklaſſen (1887)
Created: 2025-10-14 12:10
Last edited: 2025-12-05 10:47
LLM-basierte Literaturrecherche zum Ursprung von Stadt, Land, Fluss
Quellen
- Berlin State Library
(2023). Fulltexts of the Digitized Collections of the Berlin State
Library (SBB)
- 4.998.099 Seiten
- 28.909 Werke
fulltext.sqlite3
- Berlin State Library
(2023). Metadata of the Digitized Collections of the Berlin State
Library (SBB)
- Metadaten zu o.g. Werken
- [Fulltext and Metadata of the German Daily Newspaper "Der Tag"
(1900-1921)](Fulltext and Metadata of the German Daily Newspaper "Der
Tag" (1900-1921))
- evtl.
Vorgehen
- LLM-if
- Alle 5M Seiten durchgehen und LLM jeweils entscheiden lassen, ob Inhalt einen Stadt-Land-Fluss-Vorgänger beschreibt
- Aus Ergebnissen von Systematische Literaturrecherche zum Ursprung von Stadt, Land, Fluss valide und invalide Beispiele als ICL-Input bereitstellen
- Im Voraus
- Detektion of Stichprobe testen
- Kosten abschätzen
- ~5,000 Input-Tokens
- ~25 Output-Tokens
- ✕200,000
- Mistral Medium 3.1
((5000*(0.4/1000000))+(25*(2/1000000)))*200000 = 410
- Mistral Small 3.1 24B
((5000*(0.05/1000000))+(25*(0.1/1000000)))*200000 = 50
- Mistral Nemo
((5000*(0.02/1000000))+(25*(0.04/1000000)))*200000 = 20
- Voll LLM-orchestriert
- MCP-Server für DB bereitstellen
- LLM frei suchen lassen
Verarbeitungs-Vorbereitung
Daten-Verifikation
- Tabelle "text" hat Spalten "id", "file_name", "ppn", "text"
- Test mit Mit gegebenen Anfangsbuchſtaben (1882)
- PPN: 745171761
select count(*) from text where ppn = '745171761';- → stimmt mit Seitenzahl überein
select * from text where ppn = '745171761' limit 66;- id: 2290531
Vorbereitung Positiv- und Negativbeispiele
- Positiv
- Mit gegebenen Anfangsbuchſtaben (1882)
- id: 2290531
- Reiſeſpiel (1899)
- id: 2429526 + 2429577
- (über Seitenumbruch)
- id: 2429526 + 2429577
- Mit gegebenen Anfangsbuchſtaben (1905)
- (id: 3148256)
- Mein
Nachbar gefällt mir (1909 a)
- id: 4969308
- Das ABC der Großen oder das Reiſeſpiel (1909)
- id: 1608883
- Schreibspiel
(1911)
- id: 1814578
- Mit gegebenen Anfangsbuchſtaben (1882)
- Negativ
- Illustrirtes
Spielbuch für Mädchen (1865)
- id: 3973548
- „Komplimente nach dem ABC“ involviert nur eine „Kategorie“, daher irrelevant
- (id: 3973667 „Die Bestimmung nach dem ABC“)
- id: 3973548
- Spiele
zur Uebung und Erholung des Körpers und des Geistes (1878)
- id: 4191016
- „Die Bestimmung nach dem ABC“: Buchstabe gegeben durch Gegenstand, gefordert Tätigkeit/Bestimmung. Involviert nur eine „Kategorie“, daher irrelevant
- id: 4191016
- Das
Spiel im Zimmer 1887
- id: 2110021
- „Die drei Dinge“: beliebige Wörter (keine Kategorien), daher als irrelevant betrachtet
- (id: 2109917 „Die Bestimmung nach dem ABC“)
- id: 2110021
- Großes
illustriertes Spielbuch für Mädchen : eine Auswahl der schönsten Spiele,
anregender und unterhaltender Beschäftigungen und Belustigungen im
Freien und im Zimmer (1900)
- id: 2948770
- „Das Freundschafts-ABC“ nur eine „Kategorie“, daher als irrelevant betrachtet
- id: 2948770
- Illustrirtes
Spielbuch für Mädchen (1865)
- Nicht in DB?
- Mein
Nachbar gefällt mir (1836)
- PPN 766629139
- Das
Buch der Spiele und Kunststücke für die fröhliche Jugend (1846)
- PPN 1818359847
- Mein
Nachbar gefällt mir (1836)
Vorfilter-Test
- Spiel
r"(?<!bei)([sſf]\s?p\s?i\s?e\s?l)", re.I- 253,472 Seiten ohne Text
- 4,562,036 Seiten ohne Treffer
- 172,591 Seiten mit Treffer
- Spiel / Alphabet / Anfangsbuchstabe
r"(?<!bei)([sſf]\s?p\s?i\s?e\s?l)", re.Ir"(a\s?l[\s-]?p\s?h\s?a[\s-]?[bß]\s?e\s?t(?!a)|a\s?n[\s-]?[sſf]\s?a\s?n\s?g\s?s[\s-]?[bß]\s?u\s?c\s?h[\s-]?[sſf]\s?t\s?a[\s-]?[bß]\s?e)", re.I- 253,472 Seiten ohne Text
- 4,532,390 Seiten ohne Treffer
- 202,237 Seiten mit Treffer
- Spiel / Alphabet / Anfangsbuchstabe optimiert
- Regex
""" (?<!be[iy]) (?<!kirch) (?<!schau) (?<!gl[üu]cks) (?<!gl[üu]ck) (?<!kost) (?<!lust) (?<!hazard) (?<!karten) (?<!sing) (?<!ball) (?<!vor) (?<!gast) (?<!orgel) (?<!schach) (?<!taschen) (?<!würfel) (?<!marionetten) (?<!puppen) (?<!fest) (?<!licht) (?<!aus) (?<!rolle\s) ([sſf]\s?p\s?i\s?e\s?l) (?!zeug) (?!war) (?!raum) (?!kart) (?!tisch) """, re.I | re.X r""" ( a\s?l[\s-]?p\s?h\s?a[\s-]?[bß]\s?e\s?t (?!a) (?!isch\sge) (?!isches\sreg) (?!isches\sver) (?!ischer\sord) | a\s?n[\s-]?[sſf]\s?a\s?n\s?g\s?s[\s-]?[bß]\s?u\s?c\s?h[\s-]?[sſf]\s?t\s?a[\s-]?[bß]\s?e ) """, re.I | re.X - 253,472 Seiten ohne Text
- 4,596,378 Seiten ohne Treffer
- 138,249 valid Seiten mit Treffer
- Regex
LLM-Tests
- Mistral Nemo
- hält sich nicht an Anweisungen
- Mistral Small 3.1 24B
- scheint zu funktionieren
- Google Gemini 2.5 Flash Lite
- solala, nennt Antworten als Kategorien
- GPT-4.1 Nano
- falsch-negative Antwort in erstem Test
- DeepSeek R1 Distill Llama 70B
- würde Kapazität für Reasoning-Tokens beanspruchen
Ergebnis in Zahlen
- Seiten
fulltext.sqlite3- → 4.998.099
- Ohne Text: 253.472
- → 4.734.627
- Text kürzer als 250 Zeichen: 173.034
- → 4.561.593
- Stichwort-Filter Spiel / Alphabet / Anfangsbuchstabe: 4.423.795
- → 138.249
- LLM-Kategorisierung
- → 139
- Manuelle Überprüfung
- → 22 (2 ICL, 8 bekannt, 12 neu)
- Klassifikation
- 2 ICL-Texte ausgeschlossen
- 20 korrekt-positive (TP)
- 117 falsch-positive (FP)
- Genauigkeit (precision)
- 20/20+117 = 0.15
- Trefferquote (recall)
- Von LLM als nicht relevant klassifizierte 138,110 nicht manuell geprüft, daher keine Zahl für falsch-negative Klassifikationen und somit Trefferquote nicht bestimmbar. Bei niedriger Genauigkeit (0.15), sprich zu freizügiger Klassifikation als relevant, aber vermutlich eher hoch als tief.
- LLM
- 66.59 $
- 670M Tokens
- 667M Prompt
- 2.65M Completion
Neue Funde (DB ID, PPN, Seite)
- (2109991, 745139965, 00000065.xml)
- (2109991, 745139965, 00000070.xml)
(2109991, 745139965, 00000111.xml)- (1121138, 74518166X, 00000740.xml)
- (4507196, 74518961X, 00000094.xml)
- (1380111, 745280099, 00000110.xml)
- (908229, 745605478, 00000115.xml)
- (4800020, 745725198, 00000048.xml)
- (4702942, 745861873, 00000732.xml)
- (3696366, 746238983, 00000336.xml)
- (3696347, 746238983, 00000345.xml)
- (948114, 746636121, 00000309.xml)
- (2431996, 767214722, 00000203.xml)